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У роботі описано створений та реалізований алгоритм пошуку іменованих сутностей у текстах 
українською мовою. Створені програмні інструменти дозволяють виділяти іменовані сутності та 
зв'язки між ними в графічному режимі. Утиліту реалізовано у вигляді веб-застосунку. За допомогою 
цього програмного інструментарію створено корпус анотованих МЕК сутностей текстів у кількості 
122 тексти. Проставлено такі види сутностей як персони, організації та географічні об'єкти. Корпус 
складається з 2731 іменованої сутності. 

Ключові слова: іменовані сутності, обробка природного тексту, виділення іменованих сутностей. 
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Вступ 

Обробка природної мови належить до найактуальніших і найскладніших 
завдань комп'ютерної лінгвістики. Алгоритми з автоматизації обробки текстів 
природною мовою досягли значного прогресу в останній час, про що свідчать 
результати таких конференцій як СОХІЦІ | та МОСІ321. 

На момент проведення досліджень у відкритому доступі не було знайдено 
робіт у напрямку пошуку іменованих сутностей у текстах українською мовою. 

Виділення іменованих сутностей 

Задля семантичної цілісності тексту та його зв'язаності автори вдаються до 
використання різних типів повторів означень деякого об'єкту - кореферентів, які 
комплексно та різнобічно характеризують один і той же референт, тобто об'єкт, про 
який йде мова. Термін кореферентність (лат. со- - префікс, що означає сумісність; 
лат. геїегепі - той що зіставляє) вживається для позначення предмета думки, з яким 
співвідноситься певне мовне вираження, відображене у свідомості елемента 
об'єктивної дійсності |3). 

Наведемо приклад кореферентного зв'язку: 

У суботу (1) Микола хотів піти до університетської бібліотеки (2), проте, 
вона (2) того дня (1) не працювала. 
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У наведеному реченні два кореферентних зв'язки: бібліотека -- вона, та субота 
- той день. Ці дві групи слів відносяться, відповідно, до одного й того ж самого 
об'єкта і можуть бути взаємозамінені один одним. 

Пошук кореферентних зв'язків є лише однією ланкою в МІР процесі та 
потребує виконання багатьох попередніх етапів. Розглянемо загальну схему задачі 
пошуку кореферентних зв'язків, зображену на Рис. І. 
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Рис.1. Пошук кореферентних зв'язків 


На вхід програмного модуля подається текст, який оброблюється 
токенізатором-застосунком, що розбиває текст на токени. 

У рамках цієї роботи було розроблено токенізатор для української мови, який базується 
на РСЕЕ (4) правилах. Список токенів, які він може обробити, наведено в таблиці І. 


Таблиця 1. Список правил для токенізатора української мови 


Га-2А-720-9  .4-|--ФГа-7А-720-9-|-АМ.Га-2А-20-9-.)-- 
Гора, Манн 


СЮ ОТАМАЮМХя 012)010,141 
ГА ПЛАН оон М. се» 9 ФАЛАНГ" 


Була розроблена гнучка архітектура токенізатора мовою Їама, що дозволяє з 
легкістю додавати нові типи токенів або ж модифікувати набір токенів під свої потреби. 

На противагу великій кількості систем, де пунктуація тексту відкидається, ми 
залишаємо текст повністю в такому ж вигляді, в якому він був отриманий. Єдиним 
винятком з цього правила є те, що усі додаткові пробіли між словами видаляються, 
залишаючи тільки один. 

Дуже важливо правильно розбити текст на речення, адже, від цього залежить 
значення ознак, які потім будуть використовуватися при побудові моделей 
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машинного навчання. Для вирішення цього завдання ми застосували готову 
бібліотеку Л апоцаєєТооі (51. 

Наступним етапом є РО5 Таєбіпє - тегування частин мови та іншої 
граматичної інформації в токенах. Ми скористались Л апоцаєєТоої - програмним за 
стосунком, який має Тауа АРІ і має можливість тегувати слова за частинами мови та 
проставляти граматичні властивості. У роботі з Л апвиавеТооі було помічено досить 
великий недолік - багато слів отримують значну кількість форм вживання, тобто 
алгоритм не може зняти семантичну неоднозначність. Це може призводити до 
погіршення роботи усіх подальших етапів. Проте, оскільки альтернативи для 
української мови немає - користуємось тим, що є. 

Після протегування токенів РО5-тегувальником, вони можуть бути додатково 
оброблені з метою привнесення до них якоїсь додаткової інформації. Наприклад, ми 
до токенів додававали тег «Рег5оп/Ро5ійоп» у випадку, якщо нормальна форма 
токена збігалася зі словом із словника рег5оп розішоп5 хі. Такий тип постобробки 
токенів (використання додаткових словників) називається газетіром та широко 
застосовується в роботах по МІР. 

Для попередньої обробки текстів та покращення подальшої обробки токенів 
було використано спеціальні газетіри, які було побудовано в рамках дослідження на 
основі даних з відкритих джерел: список найбільш вживаних прізвищ України 131, 
найбільш вживані абревіатури української мови для позначення організацій, список 
станцій метро України, загальні назви комерційних структур, загальні та власні 
назви вищих навчальних закладів, загальні та власні назви соціальних організацій, 
загальні назви комерційних організацій, назви роду діяльності людини. 

Алгоритм виділення іменованих сутностей 

Вперше задачу розпізнавання іменованих сутностей було сформульовано в 
1996 році на конференції МОС-6 |6) як завдання знаходження в тексті таких даних, 
як імена особистостей, назви організацій, час, географічні назви, дати, грошові суми 
та значення з процентами. Завдання розпізнавання іменованих сутностей 
проявляється у виявленні та класифікації елементів тексту - слів і послідовностей 
слів за наведеними вище категоріями. 

Наприклад: Джек Лондон| (РЕКЗОМ) народився в ІСан 
Франциско | 1.ОСАТІОМ), | Каліфорнція| (Тосапоп), а не в | Лондоні| ПОСАТІОМ). 

Різні входження слова Лондон відповідають різним типам іменованих 
сутностей - географічній назві та прізвищу (власній назві), Вирішення подібних 
ситуацій робить завдання виділення сутностей нетривіальним для вирішення 
простим алгоритмічним шляхом. 

Дослідниками було запропоновано немало способів виділення іменованих 
сутностей (7,8,9). Перші алгоритми, в основному, використовували набір евристик і 
складених вручну правил |7Ї, які були залежними від мови та стилістики тексту. 
Більш сучасні підходи використовують алгоритми, засновані на методах машинного 
навчання з учителем |З83,9|. Є навіть нестандартні підходи з використанням 
генетичних алгоритмів (10) для підбору ознак, за якими буде будуватись модель 
машинного навчання. Все це дозволяє створювати алгоритми пошуку сутностей без 
використання експертів у галузі лінгвістики та таких, які можуть не прив'язуватися 
до конкретної мови. 

Було вирішено використати підхід - пошук сутностей за шаблонами. Під час 
роботи ми створили програмну систему для виокремлення іменованих сутностей з 
тексту, яка базується на теорії формальних граматик. Такий тип систем є достатньо 
дієвим у випадку відсутності великої кількості анотованих текстів, що й стало 
причиною такого непопулярного вибору. 

Наш алгоритм виділення сутностей використовує СІК |1І1| парсер, 
розроблений у ході роботи. За приклад взято парсер з роботи (121. 
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Для кожного типу сутності (у цій роботі Персона, Організація та Гео-об'єкт), 
який потрібно розглядати, ми створюємо набір правил, за якими можна визначити 
цю сутність. Правила мають наступний вигляд: 

сопіріех("Рег5оп ЕиїП", 
зітріе(єгат("їпате"), пок єтапа("аббг"))), 
зітріе(єгат("їпате"), пої(огат("аббг")), єпс пласср(-1, іше)), 
зитріе(єгат("ракг"), покєгапа("аббг")), єпс плаїсі(-І, (гие)) 
). 

Правила задаються декларативно у вигляді /ауа-об'єктів та компілюються 
разом з програмою, що додає швидкості виконання. 

Тестова версія алгоритму містить 22 правила для виокремлення сутності 
«персона», 13 правил для «гео-обєкта» та 20 правил для сутності «організація». 

Складність алгоритму визначається складністю алгоритму СІВ парсера та в 
найгіршому випадку складає О(п?). 

Оскільки в алгоритмі відсутня недетрмінованість вибору, то час виділення 
сутностей у тексті буде константним. Середній час виділення сутностей у тексті з 
-700 символів становив 50 мілісекунд при 55 правилах різного типу та 5 газетірами 
(близько 150 слів кожен) для додаткового тегування організацій, прізвищ та персон. 

У результаті проекту було створено невеликий корпус анотованих даних на 
основі новинних статей одного з найбільших інформаційних агентств України - 
«Західної інформаційної корпорації» (гхік.ма) |13| з трьома типами іменованих 
сутностей: персони, організації та географічні об'єкти. 

Основні показники створеного корпусу: кількість анотованих текстів - 122, 
сутностей типу персона - 1347, сутностей типу організація - 767, сутностей типу 
географічний об'єкт -617, загальна кількість виділених іменованих сутностей - 2731. 

Створення вибірки даних для тестування алгоритму було проведено в 
застосунку для анотування текстів, який був розроблений спеціально для цієї роботи. 
Веб-застосунок для зручного анотування даних | створено засобами /ауа, 15 та 
НТМІ, На рисунку 2 наведено знімок екрану робочого стану застосунку для 
анотування текстів. 


загрожувало виключення з університету. тим не менше, звинувачення оуло 
знято. Того ж семестру розширив початковий проект, створивши 
інструмент для соціальних досліджень ще до випускного іспиту з історії 
мистецтва. Він виставив на веб-сайті 500 зображень пам'яток культури доби 

, розмістивши на кожній сторінці ілюстрацію та статтю з коментарями 


466 університетах 467 Стенфорда 


ОЕБСАМІЗАТІОМ 


до неї. відкрив доступ до сайту своїм Й дае Покаг| 
почали ділитися замітками. Наступного семестру, у січні 2004 року, 
почав писати код для нового . За його словами, його надихнула 
стаття у про інцидент із . 4 лютого 2004 року 
запустив , який | спочатку | знаходився на 


Спочатку доступ до сайту мали лише 
, і впродовж першого місяця зареєструвалася більш ніж 


половина . Згодом до приєдналися 
( ), ( ), 
( )та , щоб допомогти у просуненні веб- 
сайту. У березні 2004 року користувалися в 


СТО, Колумбії та Єля. Невдовзі він відкрився для студентів інших шкіл 
Ліги Плюща, Бостонського та Нью-Йоркського університетів, Массачусетського 
технологічного інституту і поступово для більшості університетів Канади та 
США. Компанія Еасероок викинула із назви артикль Тпе після того, як у 2005 
році було придбано доменне ім'я гасероок.сот за 5200 тисяч. У вересні 2005 
року було відкрито шкільну версію Расероок. На думку Цукерберга, це був 


Рис.2. Вигляд екрану робочого стану застосунку для анотування текстів 
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Програма випадковим чином видає користувачу нерозмічений текст з обраної 
колекції. Застосунок візуально підсвічує виділені токени, підсвічує уже виділені 
сутності різними кольорами відповідно до типу сутності. Є можливість видалення 
проанотованих даних у випадку помилкового проставляння недостовірних даних. 
Анотовані дані зберігаються у спеціальному форматі в |5оп-файлах. За потреби 
можна змінити формат збереження анотованих даних у формат збереження ВКАТ 
П14|, який використовується в наборі стенфордських утиліт. 

Оцінку якості роботи алгоритму виділення іменованих сутностей було 
проведено на корпусі текстів, розміченому в рамках цієї роботи; оцінка алгоритму 
проводиться в термінах повноти (Р, ргесіз8іоп), точності (В, гесай) та К1-міри (Б): 

о РА (к-ть правильно виділених сутностей)(кількість всіх виділених) 
о К - (к-ть правильно виділених сутностей)/((загальна кількість у колекції) 
о Е-ХЖРЕК/(РУВ) - БІ міра 

Оскільки об'єм тестових даних був невеликий, ми виділили два типи оцінки: 
строгий і нестрогий. 

Строгий -- сутність є правильно визначеною, якщо збігаються всі ознаки: межі 
іменованої сутності - початкова та кінцева позиція та її тип (персона, організація, 
гео-об'єкт) повністю співпадають з тестовими даними. 

Нестрогий - сутність вважається правильно визначеною, якщо хоча б одна з 
меж іменованої сутності, визначена правильно (початкова або кінцева позиція), та 
тип співпадають з тестовими даними. 

Оцінка результатів побудованого алгоритму не дуже втішна. Е-міра для типу 
сутностей «персона» знаходиться в межах 0.48 при строгому алгоритму оцінки та 
0.54 в іншому випадку. Для типу «організація» та «гео» ці показники ще нижчі. 

Причиною такого результату є недосконалі правила та недостатня їх кількість, 
адже при їх створенні ми не користувались допомогою кваліфікованих лінгвістів. 
Також роботу алгоритму можна покращити, використавши метод обчислення 
семантичної близькості з роботи |15|. Проте, Й такий результат за невеликої 
кількості правил, не є дуже поганим. Це говорить про те, що алгоритм гиіе-Базед 
ЖЕК можна використовувати як допоміжний алгоритм до моделі, заснованій на 
машинному навчанні або ж як допоміжний алгоритм саме при створенні даних для 
статистичної моделі. 

Висновки 

У результаті роботи створено та реалізовано алгоритм пошуку іменованих 
сутностей в українських текстах. 

Важливою складовою є і створені програмні інструменти для зручного 
анотування та підготовки даних до наступної перевірки або ж використання в 
навчальних моделях, заснованих на методах машинного навчання. Ці інструменти 
дозволяють виділяти іменовані сутності та зв'язки між ними в графічному режимі. 
Було вирішено, для більшої зручності, надавати можливість використовувати дані, 
отримані за допомогою тиіе-Бра5ед алгоритмів, як допоміжні підказки задля 
збільшення швидкості роботи операторів. Утиліту реалізовано в вигляді веб- 
застосунку, тому це дає можливість використовувати або інтегрувати його як сервіс 
для крос платформенної роботи над підготовкою навчальних даних. 

Під час роботи над проектом було створено корпус анотованих МЕВ сутностями 
текстів у розмірі 122 тексти. Проставлені такі види сутностей як персони, організації 
та географічні об'єкти. Корпус складається з 2731 іменованої сутності. 
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КЕ5ОМЕ 

А.М. СпПурбоуеї5 

Аціотатей 5еагсі ої патедй епіййез іп пптагКей иКгаїпіап Іехі8 

Аз а гезиїї ої Фе могК, Фе аїєогіфт ої Фе 5еагсП Їог патед епішез їп ОКгаїпіап 
гехі8 угає сгеагед апа ітріетепіеа. 

Ап штарогіапі сотропепі 15 (Пе сгеагед 50Йууаге (0015 Їог вазу аппоіайоп апа 
ргерагайоп ої ака Їог Фе пехі спеск ог ц5е іп аціогіайс Ісагпіпє плодеіз Базед оп 
тешШодя ої пасріпе Іеагпіпя. ТРребе 0015 аПом уои (о аПосаїе патед епіїйез апа ПпК5 
Бебуееп Фет їп єгарріса! тоде. Її уга5 деусіореа Їог єгеагег сопуепіепсе іо ргоуїде ШФе 
оррогійпігу (0 ц5е Ше Чака обіаїпед из5іпеє гиїе-Базед аїдогійтя а5 айхіпагу Біпі5 іо 
іпсгеа5е Ше 5рееа ої Ше орегаїог5. Тре шиПіу 15 ітріетепіеа аз а муеб арріїсацоп, 50 ії 
епабіез уди 10 ц5е ог іпіевта/е її а5 а 5егуісе Їог сго55 ріайогт могК оп Фе ргерагайоп ої 
іаїпіпе Чаїа. 

Тре еуаїшацоп ої Фе гекиікз ої Фе аїєогіпт 15 пог уегу сопаїогіпє. Тбе Е-птеа5иге 
Гог а рег5оп'5 епійу (уре 15 уліфіп 0.43 ул а 5(гісі еуаїшайоп аїсогіфт апа 0.54 
оегу/5е; Гог Ше "ограпігайоп" апа "єео" (уре, Ше5е Поиге5 аге еуеп ІЇомег. 

Тре геазоп Їог із гезиїс 15 ітрегіесі гиї!е5, Биї Шеїг пипбег 15 іпзиййісіепі, Бесацзе 
а: Фе йте ої Шреїг сгеайоп уге Фі4 пої ц5е Ше РеІр ої диайНед Ппецізі5. АІ5о, Ше 
аїбогійпт'я м/огК сап Бе ітіргоуса бу иц5іпє Фе пефоа ої саїсиіайпе 5етапіїс ргохітіїу 
ої Фе могаз. Номеуег, Шія гезиіс їог а 5плай питрег ої гиіе5 15 пос уегу Бад. ТРі5 
зиєре5і5 Ша Ше гиіе-разед МЕК аїєогійбт сап Бе ц5ед а5 ап айхійагу аїєогіт їог а 
тоае! Ба5ед оп птааспіпе Іеагпіпє ог а5 ап апхішагу аїєогійпт ргесізеїу мПпеп сгеайпе Чаїа 
Рог а 5кай5исаї тоаеі. 

Дигіпє Фе могк оп Ше ргод)есі, а Боду ої аппоіаїсд МЕК» у/аз сгеагед Їог Ше 
соп(епі ої (ехі5 іп Ше аптойшпі ої 122 (ехі5. ТБеге аге зисП Кіпаз ої епіййез а5 рег5оп5, 
ограпігайопя апа єеовтарбіса! обіесів. Тре Боду сопзі5(5 ої 2,731 патед епіїйез. 


Надійшла до редакції 19.09.2017 
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